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BeschreiWRg 



Die Erfindung betrifft ein Verfahren und eine Schal- 
tungsanordnung zur Durchfuhrung mehrstufiger But- 
terfly-Operationen, wie sie z. B. bei der Transforma- 5 
tionscodierung und -decodierung, insbesondere fiir die 
Diskrete-Cosinus-Transformation (DCT) verwendet 
werden. 



Technisches Gebiet 



10 



Verschiedene Biocktransformationsalgorithmen las- 
sen sich besonders effektiv berechnen, wenn die Berech- 
nung mehrstufig ausgefiihrt wird. Der SignaifluBgraph 
wird dafiir in kleinere, moglichst ahnliche Teilgraphen 15 
mit je zwei Ein- und Ausgangen zerlegt, die meist die 
Form eines Schmetterlings haben und daher Butterfly 
genannt werden. Obiich sind dabei Butterflies mit je- 
weils zwei Ein- und Ausgangen. Als interne Rechenope- 
rationen fiir die Butterflies werden ublicherweise Addi- 20 
tionen, Subtraktionen und die vergleichsweise aufwen- 
digen Multiplikationen benotigt Im SignalfluBgraphen 
werden dabei in jeder Stufe mehrere Butterflies parallel 
benotigt. Beispieie dafiir sind die Fast- Fourier-Transfor- 
mation (FFT), die ausfuhrlich in "Digital Signal Proces- 25 
sing" von A. V. Oppenheim und R. W. Schafer, Engelwo- 
od Cliffs: Prentice Hall, 1975, beschrieben ist, und die 
Diskrete-Cosinus-Transformation (DCT) und die inver- 
se DCT(IDCT). Weitere Ausfuhrungen finden sich auch 
in: 30 
[N. Ah med, T. Natarajan & K. TL Rao: "Discrete Cosine 
Transform" IEEE transactions on Computer, Vol. C-23, 
S. 90-93, Jan. 1974], 

[B. G. Lee: "A New Algorithm to Compute the Discrete 
Cosine Transform", IEEE transactions on Acoustics, 35 
Speed and Signal Frocessing, Vol. 32, No. 6, S. 
1243-1245, Dec. 1984], 

[A. Artieri, F. Jutand: "Procede de determination de 
transformee en cosinus discrete", Brevet No. 89 02347, 
Feb. 1989], [C. Loeffler, A. Lightenberg, G.S. Moschytz: 40 
"Practical Fast 1-D DCT Algorithmus with 11 Multipli- 
cations" IEEE, S. 988 -991, 1989], 

[M. Vetterli, H. Nussbaumer: "Simple FFT and DCT 
Algorithms with Reduced Number of Operations", Si- 
gnal Processing, Vol. 6, S. 267—278, Aug. 1984]. 45 

DCT und IDCT werden haufig fur die Datenkompres- 
sion von Videosignalen eingesetzt. Die Verfahren sind in 
den Standards JPEG, MPEG, "Information Technology 
— Coding of Moving Pictures and Associated Audio for 
Digital Storage Media up to about 1.5 Mbit/s", Draft 50 
International Standard ISO/IEC DIS 11 172, 1992, defi- 
niert. Dabei wird eine zweidimensionale Form der DCT 
eingesetzt, die in zwei eindimensionaie DCT-Transfor- 
mationen mit einer Lange von 8 separierbar ist. 

Das Problem ist auch in "Video Codec for Audiovisual 55 
Services at p x 64 kbit/s, Recommendation H. 261", The 
International Telegraph and Telephone Consultative 
Committee (CCITT), 1990 naher definiert. 

Zur Implementation von SignalfluBgraphen fiir 
Blocktransformationsalgorithmen stehen im Prinzip 60 
mehrere Moglichkeiten zur Verfiigung. Der gesamte Si- 
gnaifluBgraph kann direkt in Hardware uberfiihrt wer- 
den, so daB jede Multiplikation einen festverdrahteten 
Multiplizierer, jede Addition einen Addierer und jede 
Subtraktion einen Subtrahierer erfordert. Diese Vorge- 65 
hensweise fuhrt zwar zu extrem hohen Durchsatzraten, 
ist jedoch mit vergleichsweise hohem Aufwand verbun- 
den. Das andere Extrem liegt darin, alle Operationen 



nacheinander in einer programmierbaren Einheit im 
einfachen Zeitmultiplex durchzufiihren. Ein Beispiel ist 
auf Seite 265 in dem Datenhandbuch von LSI-Logic 
ausgefiihrt (Implementing Fast Fourier Transform Sy- 
stems with the L64280/81 Chipset. Digital Signal Pro- 
cessing (DSP) Databook. Milpitas: LSI Logic, June 1990, 
S. 258—268). Dieses Vorgehen ist zwar sehr flexibel und 
liefert hohe Auslastungsraten, fiihrt jedoch zu niedrigen 
Durchsatzraten. 

Haufig wird hierbei wird daher die Moglichkeit ge- 
nutzt, die Anzahl der realisierten Butterflies iiber einen 
Zeit-Multiplexbetrieb der gewunschten Durchsatzrate 
anziipassen. Dabei ist in der Regel jeder Verarbeitungs- 
stufe eine Butterfly zugeordnet (LSI-Logic, Databook, 
Seite 261, Fig. 1 und 2). Die Zuordnung kann beispiels- 
weise iiber einen Projektionsalgorithmus erfolgen. Fiir 
den Betrieb werden zusatzlich zu den eigentlichen But- 
terflies Permutationselemente benotigt, um die Daten in 
die jeweils vorgegebene, in jeder Stufe unterschiedliche 
zeitliche Reihenfolge zu bringen. 

In den meisten Fallen wird jedoch bei der Konzeption 
von Verarbeitungskomponenten ein einfaches System- 
konzept angestrebt, indem im Mittel mit jedem Takt- 
schritt ein Datum verarbeitet wird. Jeder Taktschritt 
kann dabei ggf. auch aus mehreren Teiltakten bestehen. 
Auch synchron getaktete Zwischenspeicher, die eventu- 
ell zwischen mehreren Verarbeitungseinheiten zur An- 
passung von Datenformaten benotigt werden, liefern 
pro Taktschritt meist maximal ein Datum, sofern sie 
nicht aufwendig unterteilt sind. Deshalb werden manch- 
mal auch Butterflies im Zeitmultiplex fiir mehrere Stu- 
fen gemeinsam eingesetzt. Um eine optimale Ausla- 
stung der Verarbeitungseinheiten (Prozessoren) und da- 
mit einen moglichst niedrigen Aufwand zu erhalten, 
muB die Anzahl der Prozessoren an die Durchsatzrate 
angepaBt werden. 

Die aufwendige Implementierung von Multiplizierern 
kann dadurch minimiert werden, daB die Transforma- 
tion mit einer moglichst groBen Anzahl von Multiplika- 
tionen mit festem Koeffizienten ausgefiihrt wird. Zum 
Beispiel bei der Kombination von festverdrahteten Ad- 
dier-, Subtrahier- und Schiebe-Operationen liegt der 
Aufwand fiir eine Multiplikation mit festem Koeffizien- 
ten erheblich niedriger, als fiir eine Multiplikation mit 
variablem Koeffizienten [K. Hwang: Computer Arith- 
metic, Principles, Architectures and Design. John Wiley 
& Sons, 1979) und (P. Pirsch: VLSI Implemenation Stra- 
tegies, in: P. Pirsch (Hrsgb.): VLSI Implementations for 
Image Communications, Elsevier 1993, S. 67]. 

Die Butterflies arbeiten mit 2 Werten pro Taktschritt 
meist schneller als die Speicher und die Datenzu- und 
-abfuhr, die meist 1 Wert pro Taktschritt benotigen. 
Entsprechende Verhaltnisse ergeben sich auch bei der 
Verarbeitung komplexer Zahlen wie sie beispielsweise 
bei der FFT benotigt werden. Haufig werden alle n Ebe- 
nen zeitlich nacheinander abgearbeitet. Bei optimaler 
Datenzufuhrung iiber angepaBte Zwischenspeicher 
sinkt dann aber die bei n Stufen erreichte Durchsatzrate 
auf das 2/nfache des Wertes ab. Fiir die Erzielung einer 
optimale Durchsatzrate mit minimalem Aufwand ist es 
daher notwendig, die Anzahl der realisierten Butterflies 
so zu wahlen, daB der Wert n/2 der Anzahl der zu verar- 
beitenden Werte je Taktschritt entspricht Bei ungera- 
der Anzahl n ergibt sich jedoch das Problem, daB n/2 
nicht ganzzahlig ist. Entsprechendes gilt fiir vergleich- 
bare Aufgaben, bei denen die optimale Anzahl der But- 
terflies nicht ganzzahlig ist. In all diesen Fallen ist bis- 
lang keine optimale Implementierung moglich. 
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Dies trifft beispielsweise auf dreistufig irnplementier- 
te SignalfluBgraphen fur die 8-Punkte-DCT zu. Wird 
dabei beispielsweise mit nur einem Butterfly-Prozessor 
gearbeitet, so wird zwar der Verarbeitungseinheit zeit- 
lich vollstandig genutzt, die Durchsatzrate von Speicher 5 
und Gesamtsystem ist jedoch auf 2/3 des Maximalwer- 
tes gesunken. Werden dagegen zwei, bzw. drei Butter- 
fly-Prozessoren eingesetzt, um eine Durchsatzrate von 
einem Wert/Takt zu erreichen, so sind dagegen die Pro- 
zessoren nicht vollstandig ausgelastet 10 

Aufgabe der Erfindung 

Aufgabe der Erfindung war es, ein Verfahren und eine 
Schaitungsanordnung zur Durchfuhrung mehrstufiger 15 
Butterfly-Operationen anzugeben. Der Implementie- 
rungsbedarf, insbesondere die Anzahl an Multiplizie- 
rern sollte hierbei minimal sein. 



Zeichnungen 



Erfindung 
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Die Aufgabe wird durch das erfindungsgemaBe Ver- 
fahren nach Anspruch 1 gelost. Mehrere Stufen einer 
Transformation werden im einfachen Zeitmultiplex in 
einer gemeinsamen Schaltung zur Durchfuhrung von 25 
Butterfly-Operationen ausgefuhrt. In der erfindungsge- 
maBen Schaitungsanordnung nach Anspruch 3 wird ein 
Rechenwerk zur Durchfuhrung von Butterfly-Operatio- 
nen fiir die Stufen gemeinsam genutzt. Die Daten wer- 
den nach der Berechnung einer Stufe permutiert und 30 
uber eine Verzogerungsleitung in das Rechenwerk zu- 
riickgekoppelt. Im Zeitmultiplex konnen somit Berech- 
nung fur die Stufen abwechselnd im gleichen Rechen- 
werk ausgefuhrt werden. 

Die Butterflies in den SignalfluBgraphen fiir die 35 
Blocktransformationsalgorithmen mussen hierbei so ge- 
schickt gewahlt sein, daB nur in maximal n-1 Stufen die 
vergleichsweise aufwendigen programmierbaren Multi- 
plikationen implementiert werden miissen. 

Zur Durchfuhrung von Butterfly-Operationen, 1, B. 40 
fur FFT oder DCT, wird an den Ausgang der Schai- 
tungsanordnung zur Berechnung- mehrerer Stufen im 
Zeitmultiplex ein Rechenwerk zur Durchfuhrung von 
Butterfly-Operationen und Permutationen geschaltet, 
das ohne stufenweisen Zeitmultiplex arbeitet. Fiir die 45 
Berechnung der inversen Transformationen wird ein 
ohne stufenweisen Zeitmultiplex arbeitendes Rechen- 
werk zur Durchfuhrung von Butterfly-Operation und 
Permutationen der durch Zeitmultiplex gekennzeichne- 
ten Schaltung vorgeschaltet. 50 

Bei einer ungeraden Anzahl n laBt sich so mindestens 
eine der Butterfly- Verarbeitungseinheiten mit festem 
bzw. umschaltbaren Multiplikationskoeffizienten reali- 
sieren. Diese Verarbeitungseinheit ist zumeist am Ein- 
bzw. Ausgang der Schaltung angeordnet. Es ist daher 55 
moglich, daB n-1 Butterfly-Stufen im zweifachen Zeit- 
multiplex betrieben werden und die verbleibende Stufe 
separat ohne Zeitmultiplex implementiert wird. Da- 
durch wird bei den aufwendigen Stufen ein Ausnut- 
zungsgrad von 1 erreicht, wahrend lediglich bei der er- eo 
sten, bzw, letzten Stufe der Ausnutzungsgrad bei 0,5 
liegt. Da die separate Stufe im allgemeinen nur einen 
Bruchteil des Gesamtaufwand ausmacht, wird so Ge- 
samtausnutzungsgrad von fast 1 erreicht. Entsprechen- 
des laBt sich haufig auch bei anderen Durchsatzraten 65 
erreichen. 



Die Erfindung wird anhand der Figuren naher erlau- 
tert. Es zeigen: 

Fig. 1 Beispiel eines geeigneten DCT-DatenfluBdia- 
gramms mit drei Stufen. 

Fig. 2 Gemischter Multiplex-Normal-Betrieb mit op- 
timaler Ausnutzung der Butterflies. 

Fig. 3 Gemischter Multiplex-Normal-Betrieb fiir 
IDCT(mit IDCT- Butterflies). 

Fig. 4 Permutationsschaltung. 

Anwendungsbeispiele 

Die Erfindung findet z. B. Anwendung bei den ver- 
gleichsweise regular aufgebauten Transformationen 
FFT und IFFT, beschrieben in "Digital Signal Proces- 
sing" (Seite 293, Fig. 6.6, bzw. Seite 304, Fig. 6.17), sowie 
fiir einige relativ irregular aufgebauter DCT- und der 
IDCT-Implementierungen, wie etwa die auf dem Algo- 
rithmus von Lee basierenden SignalfluBgraphen fiir die 
8-Punkte-DCT(N. Demassieux, F. Jutand: "Orthogonal 
Transforms", in P. Pirsch, "Implementations for Image 
Communications", Elsevier, 1993, S. 217 — 250, insb. S. 
223, Fig. 3). 

Bei der FFT wird mit komplexen Zahlen gerechnet. 
Die benotigten Operationen lassen sich aber auch auf 
reelle Additionen, Subtraktionen und Multiplikationen 
zuriickfuhren. Bei den Formen der FFT wird neben Ad- 
dition und Subtraktion in der ersten bzw. letzten Stufe 
lediglich die Multiplikation mit dem Wert 1 benotigt, in 
der zweiten, bzw. vorletzten Stufe die Multiplikation mit 
der imaginaren Zahl i. Beide lassen sich Ieicht ohne eine 
Hardware-Multiplizierer realisieren. In der dritten, bzw. 
drittletzten Stufe wird zusatziich die Multiplikation mit 
der Quadratwurzei von 2 benotigt, die dann mit festver- 
drahteten Multiplizierern realisieren laBt. In diesem Fal- 
le kann sich das Herausnehmen von bis zu drei Stufen 
lohnen. J 

Auch bei der fiir Bildcodierungsverfahrerr haufig be- 
notigten DCT der Lange 8 lassen sich Butterflies so 
finden, daB nur in den ersten beiden Butterfly-Stufen Bl 
und B2 die sehr aufwendigen, programmierbaren Multi- 
plizierer benotigt werden (Fig. I). In der dritten Butter- 
fly-Stufe B3 wird statt dessen lediglich ein sehr einfa- 
cher, festverdrahteter Multiplizierer benotigt, der mit 
der Quadratwurzei von 2 (Faktor 2»P4) oder mit der 
Halfte der Quadratwurzei von 2 (Faktor P4) multiplizie- 
ren muB. Die Umschaltung zwischen diesen beiden Mul- 
tiplikatoren ist daher sehr einfach moglich. Beispielswei- 
se erfordert sie bei Verwendung des ublichen Dualzah- 
lensystems lediglich ein bitweises Verschieben der Mui- 
tiplikanden. Zusatziich ist ein einfaches Korrektur-Netz 
K und eine Skalierung Sk notwendig. Das Korrektur- 
Netz enthalt nur einfache Additionen und kann daher 
vergleichsweise einfach aufgebaut werden. Die Skalie- 
rung fiir den Faktor P4/2 entspricht einem Viertel der 
Quadratwurzei von 2. Wird eine zweidimensionale DCT 
(2D-DCT) wie fiir Bildcodierungsaufgaben berechnet, 
so wird diese Skalierung zweimal benotigt. Aufgrund 
der prinzipiellen Linearitat der Anordnung lassen sich 
daher die beiden Skaiierungsfaktoren zum Faktor 1/8 
zusammenfassen. Dieser Faktor entspricht einer Zwei- 
erpotenz und kann daher in Verbindung mit den iibli- 
cherweise eingesetzten Zahlensystemen mit einer fest- 
verdrahteten Schiebe-Operation ohne zusatzliche 
Hardware implementiert werden. 

Insgesamt wird also neben dem Aufwand fur die Im- 
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plementierung der Datenzu- umr-ab funning nur Hard- 
ware fur die Implementierung der \ n 2. und 3. Butterfly- 
Stufen mit Permutation und dem Korrektur-Netz beno- 
tigt 

Es ist daher moglich, die Verarbeitung erfindungsge- 5 
maB so aufzuteilen, daB die beiden ersten aufwendigen 
Butterfly-Stufen B1/B2 im Zeitmultiplex arbeiten, die 
letzte, einfach aufgebaute Butterfly-Stufe B3 jedoch di- 
rekt mit dem Verarbeitungstakt betrieben wird (Fig. 2). 
Die Stufe B3 muB dabei auch die fur -das notwendige 10 
Korrektur-Netz beinhalten. Fur die Einfiihrung der 
Zeitmultiplex-Verarbeitung sind lediglich zusatzliche 
synchrone Verzogerungen D (Pipeline-Stufen) und Mul- 
tiplexer M erforderlich, um die Serien/Parallel- Wand- 
lung und die Parallel/Serien-Wandlung durchzuftihren. 15 
Wird die Stufe 3 im Zeitmultiplex betrieben, so wird die 
Parallel/serien-Wandlung erst nach dieser Stufe durch- 
gefuhrt (Fig. 3). 

Bei einem derartigen Multiplex-Betrieb wird zumin- 
dest der aufwendig aufgebaute Teil der Verarbeitungs- 20 
einheit vollstandig genutzt, ohne daB sich die maximal 
mogliche Durchsatzrate reduziert wird. Diese Eigen- 
schaft ermoglicht effiziente Hardware- Realisierungen. 

Mit angepaBten Butterflies und Umkehrung der Ver- 
arbeitungsmodi laBt sich dieses Grundprinzip auch auf 25 
die IDCT- Verarbeitung anwenden (Fig. 4). In diesem 
Fall braucht der fur die Butterfly Bl eingesetzte Multi- 
plizierer nur mit festverdrahteten Koeffizienten ohne 
Zeitmultiplex betrieben werden, wahrend die aufwendi- 
gen Einheiten fur die Butterflies B2/B3 im Zeitmultiplex 30 
betrieben werden. Auch hierbei sind zusatzlich wieder 
lediglich wenige Verzogerungen D und Multiplexer fiir 
den Zeitmultiplex-Betrieb erforderlich. 

Zwischen den Stufen mussen die Daten ggf. permu- 
tiert werden, damit die 35 
Ausgangsdaten fur die nachste Stufe in der richtigen 
Reihenfolge am Eingang der Butterfly-Stufe an hegen. 
Die Permutation kann z. B. mit der in Fig. 5 gezeigten 
Schaltungsanordnung durchgefuhrt werden. Die Anord- 
nung der Speicher und Multiplexer ist hier jedoch ab- 40 
hangig von dem Transformationsaigorithmus und muB 
der jeweiligen Aufgabe entsprechend angepaBt werden. 
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tionen zuruckgekoppelt und einer weiteren Butter- 
fly-Operation unterzogen werden, wobei das Re- 
chenwerk fur die Teilberechnungen der Stufen ge- 
meinsam genutzt wird und die Teilberechnungen 
der Stufen alternierend ausgefuhrt werden. 

3. Schaltungsanordnung zur seriellen Durchfuh- 
rung von mehrstufigen Transformationen im einfa- 
chen Zeitmultiplex, dadurch gekennzeichnet, daB 
ein Rechenwerk zur Berechnung einer Butterfly 
ausgepragt ist, die Ausgange des Rechenwerks 
uber eine Schaltung zur Permutation, Verzdge- 
rungselemente und Multiplexer an den Eingang des 
Rechenwerks ruckgekoppelt sind, wobei der Si- 
gnaleingang an den einen Multiplexer und uber ein 
Verzogerungsglied an den anderen Multiplexer ge- 
schaltet ist 

4. Schaltungsanordnung nach Anspruch 3 zur Er- 
zeugung eines seriellen Ausgangsdatenstroms, da- 
durch gekennzeichnet, daB die Ausgange des Re- 
chenwerks zum einen uber ein weiteres Verzoge- 
rungselement, zum anderen direkt mit einem drit- 
ten Multiplexer verbunden sind. 

5. Schaltungsanordnung nach Anspruch 4 zur Be- 
rechnung einer DCT, dadurch gekennzeichnet, daB 
der Ausgang des dritten Multiplexers mit einem 
Rechenwerk zur Durchfuhrung einer Butterfly- 
Operation ohne Zeitmultiplex verbunden ist. 

6. Schaltungsanordnung zur Berechnung einer 
IDCT, dadurch gekennzeichnet, daB der Schal- 
tungsanordnung nach Anspruch 3 ein Rechenwerk 
zur Durchfuhrung einer Butterfly-Operation ohne 
Zeitmultiplex vorgeschaltet ist. 



Hierzu 2 Seite(n) Zeichnungen 



Bezugszeichenliste 

D Verzogerungsglied 
M Multiplexer 
Bl erste Butterfly-Stufe 
B2 zweite Butterfly-Stufe 
B3 dritte Butterfly-Stufe 
PS Permutationsschaltung 
PI — P7 Wichtungsfaktoren 
KL Korrekturnetz 
Sk Skalierung 
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55 

Patentanspriiche 

1. Verfahren zur Durchfuhrung von mehrstufigen 
Transformationen mittels Butterfly-Operationen, 
dadurch gekennzeichnet, daB Stufen im Zeitmulti- 60 
plex und die anderen Stufen ohne Zeitmultiplex 
berechnet werden. 

2. Verfahren nach Anspruch 1 zur Durchfuhrung 
von Berechnungen mehrerer Stufen im Zeitmulti- 
plex, dadurch gekennzeichnet, daB Ergebnisse nach 65 
der Berechnung einer vorhergehenden Stufe per- 
mutiert, uber eine Verzogerungsleitung in ein Re- 
chenwerk zur Durchfuhrung von Butterfly-Opera- 
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